Model Selection

Spatial Relationship Description

# Spatial Relationship Description

Rgb Language Cap

This is a vision-language model trained on the COCO dataset, capable of generating descriptive texts that include spatial relationships between image entities.

Transformers English

Rgb Language Cap

This is a spatially-aware vision-language model capable of recognizing spatial relationships between objects in images and generating descriptive text.

Transformers English

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase